Дивергенция Брэгмана

Дивергенция Брэгмана (расстояние Брэгмана) — мера расстояния между двумя точками, определённая в терминах строго выпуклой функции. Они образуют важный класс дивергенций. Если точки интерпретировать как распределение вероятностей, либо как значения параметрической модели^[англ.], либо как набор наблюдаемых значений, то полученное расстояние является статистическим расстоянием^[англ.]. Самой элементарной дивергенцией Брэгмана является квадрат евклидова расстояния.

Дивергенции Брэгмана подобны метрикам, но не удовлетворяют ни неравенству треугольника, ни симметрии (в общем случае), однако они удовлетворяют обобщённой теореме Пифагора. В информационной геометрии^[англ.] соответствующее статистическое многообразие^[англ.] интерпретируется как плоское многообразие^[англ.] (или двойственное). Это позволяет обобщить многие техники оптимизации к дивергенции Брэгмана, что геометрически соответствует обобщению метода наименьших квадратов.

Дивергенция Брэгмана названа по имени Льва Мееровича Брэгмана, предложившего концепцию в 1967 году.

Формально, для непрерывно дифференцируемой строго выпуклой функции $F\colon \Omega \to \mathbb {R}$ , определённой на замкнутом выпуклом множестве $\Omega$ , расстояние Брэгмана определяется как разность между значением функции $F$ в точке $p$ и значением разложения Тейлора первого порядка функции $F$ в точке $q$ , вычисленное в точке $p$ :

D_{F}(p,q)=F(p)-F(q)-\langle \nabla F(q),p-q\rangle

.

В машинном обучении дивергенция Брэгмана используется для вычисления модифицированной логистической функции ошибки, работающей лучше функции softmax с зашумлёнными данными^[1].

Свойства[править | править код]

Дивергенция Брэгмана неотрицательна ( $D_{F}(p,q)\geqslant 0$ для всех $p$ и $q$ — следствие выпуклости $F$ ), выпукла по первому аргументу^[2], линейна относительно неотрицательных коэффициентов ( $D_{F_{1}+\lambda F_{2}}(p,q)=D_{F_{1}}(p,q)+\lambda D_{F_{2}}(p,q)$ для $\lambda \geqslant 0$ ).

Дивергенция Брэгмана для выпуклого сопряжения $F^{*}$ заданной функции $F$ связана с $D_{F}(p,q)$ :

D_{F^{*}}(p^{*},q^{*})=D_{F}(q,p)

,

где $p^{*}=\nabla F(p)$ и $q^{*}=\nabla F(q)$ — двойственные точки, соответствующие $p$ и $q$ .

Ключевым результатом о дивергенции Брэгмана является то, что если дан случайный вектор, среднее векторов минимизирует ожидаемую дивергенцию Брэгмана от случайного вектора. Этот результат обобщает классический результат о том, что среднее по множеству минимизирует полную квадратичную ошибку элементов множества. Для случая векторов установелен в 2005 году^[3], на функции распределений результат распространён в 2008 году^[4].

Примеры[править | править код]

Квадрат евклидова расстояния $D_{F}(x,y)=\|x-y\|^{2}$ является каноническим примером расстояния Брэгмана, образованного выпуклой функцией $F(x)=\|x\|^{2}$

Квадрат расстояния Махаланобиса $D_{F}(x,y)={\tfrac {1}{2}}(x-y)^{T}Q(x-y)$ , которое образуется от выпуклой функцией $F(x)={\tfrac {1}{2}}x^{T}Qx$ . Это можно рассматривать как обобщение квадрата евклидова расстояния.

Обобщённая дивергенция Кульбака — Лейблера:

D_{F}(p,q)=\sum _{i}p(i)\log {\frac {p(i)}{q(i)}}-\sum p(i)+\sum q(i)

образуется функцией отрицательной энтропии:

F(p)=\sum _{i}p(i)\log p(i)

.

Расстояние Итакуры — Сайто:

D_{F}(p,q)=\sum _{i}\left({\frac {p(i)}{q(i)}}-\log {\frac {p(i)}{q(i)}}-1\right)

обобщается выпуклой функцией:

F(p)=-\sum _{i}\log p(i)

.

Обобщение проективной двойственности[править | править код]

Ключевым средством в вычислительной геометрии является идея проективной двойственности, которая отображает точки в гиперплоскости и наоборот, сохраняя тем не менее отношения инцидентности и «выше — ниже». Есть много видов проективной двойственности — обычный вид отображает точку $p=(p_{1},\ldots p_{d})$ в гиперплоскость $x_{d+1}=\sum _{1}^{d}2p_{i}x_{i}$ . Это отображение можно понимать (если отождествлять гиперплоскость с нормалью) как выпуклое сопряжённое отображение, которое переводит точку p в двойственную точку $p^{*}=\nabla F(p)$ , где $F$ определяет $d$ -мерный параболоид $x_{d+1}=\sum x_{i}^{2}$ .

Если заменить параболоид на любую выпуклую функцию, то получится другое двойственное отображение, которое сохраняет инцидентность и свойства «выше — ниже» стандартной проективной двойственности. Из этого вытекает, что естественные двойственные концепции вычислительной геометрии наподобие диаграммы Вороного и триангуляций Делоне сохраняют своё значение в пространствах с расстоянием, определённым произвольной дивергенцией Брэгмана. Алгоритмы «нормальной» геометрии распространяются естественным образом на эти пространства^[5].

Обобщения дивергенции Брэгмана[править | править код]

Дивергенции Брэгмана можно интерпретировать как предельные случаи косых дивергенций Йенсена^[6]). Дивергенции Йенсена можно обобщить с помощью сравнительной выпуклости, а обобщение предельных случаев этих косых дивергенций Йенсена приводит к обобщённым дивергенциям Брэгмана (см. статью Нильсена и Нока^[7]). Хордовая дивергенция Брэгмана^[8] получается, если взять хорду вместо касательной.